22 research outputs found
Multilingual statistical text analysis, Zipf's law and Hungarian speech generation
The practical challenge of creating a Hungarian e-mail reader has initiated our work on statistical text analysis. The starting point was statistical analysis for automatic discrimination of the language of texts. Later it was extended to automatic re-generation of diacritic signs and more detailed language structure analysis. A parallel study of three different languages-Hungarian, German and English-using text corpora of a similar size gives a possibility for the exploration of both similarities and differences. Corpora of publicly available Internet sources were used. The corpus size was the same (approximately 20 Mbytes, 2.5-3.5 million word forms) for all languages. Besides traditional corpus coverage, word length and occurrence statistics, some new features about prosodic boundaries (sentence initial and final positions, preceding and following a comma) were also computed. Among others, it was found that the coverage of corpora by the most frequent words follows a parallel logarithmic rule for all languages in the 40-85% coverage range, known as Zipf's law in linguistics. The functions are much nearer for English and German than for Hungarian. Further conclusions are also drawn. The language detection and diacritic regeneration applications are discussed in detail with implications on Hungarian speech generation. Diverse further application domains, such as predictive text input, word hyphenation, language modelling in speech recognition, corpus-based speech synthesis, etc. are also foreseen
A magyar nyelv betűstatisztikája beszédfeldolgozási szempontok figyelembevételével
A cikkben bemutatok egy Ăşj tĂpusĂş betstatisztikát, amely a klasszikus 44 bets magyar ábĂ©cĂ©n alapulĂł eljárás továbbfejlesztĂ©se Ă©s egyesĂti a bet- Ă©s a hangstatisztika elnyeit. A betstatisztika kĂ©szĂtĂ©sĂ©t olyan mĂłdon egĂ©szĂtem ki, hogy figyelembe veszem a beszĂ©dfeldolgozás igĂ©nyeit is. A mĂłdszer megkĂĽlönböztet bet szinten olyan jelensĂ©geket is, amelyek csak a hangstatisztika szintjĂ©n lehet kezelni. Az Ăşj mĂłdszert a Magyar Nemzeti Szövegtáron tesztelem, összehasonlĂtom a mĂłdszert a klasszikus betstatisztikával Ă©s a beszĂ©dfeldolgozásban használt hangstatisztikával
Multimodális kommunikáció alkalmazása projektvezetésben
Napjaink intenzĂv kommunikáciĂłra alapulĂł informáciĂłs társadalmában egyre nagyobb hangsĂşlyt kap a testreszabhatĂł, intelligens, rugalmas Ă©s alkalmazkodĂł informáciĂłtovábbĂtás, mely nem kötĹ‘dik csak egyetlen mĂ©diumhoz. Ez a törekvĂ©s Ă©rvĂ©nyes a projektvezetĂ©s tĂ©makörĂ©ben is, mely a projektkezelĹ‘ rendszerek multimodalitásában mutatkozik meg.
A PromĂłciĂł projekt keretein belĂĽl megvalĂłsĂtott projektkezelĹ‘ rendszer kĂ©pes a felhasználĂłk felĂ© irányulĂł kommunikáciĂł többalakĂş, többmĂłdĂş megvalĂłsĂtására. Ennek lĂ©nyege, hogy a felhasználĂł Ă©s a rendszer közötti információáramlásra nincs egyetlen dedikált csatorna (technolĂłgia). KözvetlenĂĽl az adatközvetĂtĂ©s elĹ‘tt döntĂ©s szĂĽletik a felhasználandĂł mĂ©diumrĂłl, mely lehet pĂ©ldául email (elektronikus levĂ©l), SMS (rövid szöveges ĂĽzenet) vagy akár hangĂĽzenet (telefonos hĂvás Ă©s Text-To-Speech motor ötvözĂ©sĂ©vel).
A felhasználĂłk felĂ© továbbĂtandĂł ĂĽzenetek absztrakt formában keletkeznek. A kĂ©zbesĂtĂ©s mĂłdja a projektkezelĹ‘ rendszerbe Ă©pĂtett logika alapján dĹ‘l el. Ha pĂ©ldául a felhasználĂł nem válaszol 10 percen belĂĽl egy emailre, akkor mobiltelefonon keresztĂĽl prĂłbáljuk elĂ©rni. Nappal a gyors reszponzivitás Ă©rdekĂ©ben hanghĂvással, Ă©jszaka viszont SMS-t használva.
A projektkezelĹ‘ rendszer multimodális megoldást alkalmaz a kĂ©rdĹ‘Ăvek kitöltĂ©sĂ©re is. A lĂ©trehozott kĂ©rdĹ‘Ăvek felhasználĂłhoz rendelhetĹ‘k, opcionálisan definiálhatĂł, hogy mely projekt mely feladatában válnak aktuálissá. A kĂ©rdĂ©sek megválaszolására a felhasználĂłi felĂĽleten kĂvĂĽl lehetĹ‘sĂ©g van telefonnal is, ez kĂĽlönösen hasznos offline (pĂ©ldául terepen dolgozĂł) felhasználĂłk esetĂ©n. A kĂ©rdĹ‘Ăvek XML formátumra alakĂtását követĹ‘en a Text-To-Speech motor beolvassa a kĂ©rdĂ©seket, Ă©s a telefonbillentyűk segĂtsĂ©gĂ©vel megadhatĂłk a válaszok, melyeket a rendszer eltárol
Érzelmes beszĂ©d gĂ©pi előállĂtása Ă©rzelem specifikus beszĂ©dadatbázisok felhasználásával
Tanulmányunkban megvizsgáljuk hogyan lehet Ă©rzelem specifikus beszĂ©dadatbázisok felhasználásával gĂ©pileg Ă©rzelmes beszĂ©det előállĂtani. KĂsĂ©rletĂĽnket magyar nyelvre vĂ©geztĂĽk, de a mĂłdszer nyelvfĂĽggetlen. FelvettĂĽnk egy szemantikailag semleges tartalmĂş mondatot Ă©s 26 logatomot amelyek a mondat szintetizálásához szĂĽksĂ©ges diádokat Ă©s CVC triádokat tartalmazták. A hanganyagot egy profi szĂnĂ©sznĹ‘ mondta fel a hat alapĂ©rzelemnek megfelelĹ‘en, illetve semleges Ă©rzelmi változatban. A logatomok felhasználásával 7 Ă©rzelemfĂĽggĹ‘ beszĂ©delem adatbázist hoztunk lĂ©tre. A 7 beszĂ©delem adatbázist összepárosĂtva a termĂ©szetes mondatokbĂłl kinyert 7 prozĂłdiai kontĂşrral 49 szintetizált mondatot állĂtottunk elĹ‘. A logatomokban, illetve a termĂ©szetes Ă©s a szintetizált mondatokban hallhatĂł Ă©rzelmeket 194 tesztalany Ă©rtĂ©kelte ki. A tesztelĹ‘k a logatomok 99%-ban, illetve az összes termĂ©szetes mondatban szignifikánsan a vĂ©letlen találgatás szintje felett ismertĂ©k fel a szĂnĂ©sznĹ‘ által kifejezett Ă©rzelmeket. Az Ă©rzelmek azonosĂtási aránya egyes szintetizált mondatok esetĂ©n meghaladta a termĂ©szetes mondatokĂ©t
Magyar nyelvű WaveNet kĂsĂ©rletek
A gĂ©pi beszĂ©dkeltĂ©s legĂşjabb iránya a mĂ©ly neurális hálĂłzat alapĂş közvetlen hullámforma generálás. A Google DeepMind kutatĂłi által kidolgozott, Ăşn. nyĂşjtott konvolĂşciĂł (dilated convolution) alapĂş WaveNet architektĂşra kĂ©pes a hullámforma sajátosságait megtanulni Ă©s az Ăgy Ă©pĂtett modell alapján Ăşj hullámformákat generálni. Ezzel az architektĂşrával magyar adatbázisokon vĂ©geztĂĽnk kĂsĂ©rleteket. Megvizsgáltuk a hálĂłzat tanulási Ă©s generálási kĂ©pessĂ©geit, majd kĂĽlönbözĹ‘ nyelvi jellemzĹ‘ket felhasználva mĂłdosĂtottuk a tanulási Ă©s beszĂ©dhullámforma generálási folyamatot. A mondatok generálásához egyrĂ©szt termĂ©szetes bemondásokbĂłl kinyert paramĂ©terlistát használtunk, illetve szabály alapĂş beszĂ©dszintetizátor prozĂłdiájával is vĂ©geztĂĽnk kĂsĂ©rleteket. A generált hangmintákat meghallgatásos teszt segĂtsĂ©gĂ©vel Ă©rtĂ©keltĂĽk, amelyben a WaveNet által generált hangmintákat hasonlĂtottuk össze termĂ©szetes Ă©s szintetizált beszĂ©ddel
Promptgenerátor : ĂĽgyfĂ©lszolgálati hangos ĂĽzenetek automatikus gĂ©pi előállĂtása egy adott bemondĂł hangjára
Az egyre szĂ©lesedĹ‘ kommunikáciĂłs lehetĹ‘sĂ©gekkel rohamosan nĹ‘ a a telefonos ĂĽgyfĂ©lszolgálatok terhelĂ©se. A tájĂ©koztatás automatizálásához egyre több hangos ĂĽzenetet kell elkĂ©szĂteni, általában ugyanazzal a bemondĂłval. Ezt a felolvasĂł szemĂ©ly vĂ©ges terhelhetĹ‘sĂ©ge korlátozza. A cikkben olyan gĂ©pi megoldás lehetĹ‘sĂ©gĂ©rĹ‘l számolunk be, amelyik leveszi a munka nagy rĂ©szĂ©t a bemondĂł vállárĂłl, csak ellenĹ‘riznie kell a generált ĂĽzenet hangzását. A promptgenerátor olyan Ăşj beszĂ©dtechnolĂłgiai megoldás, amilyent mĂ©g nem kĂ©szĂtettek Magyarországon. TervezĂ©se Ă©s fejlesztĂ©se mind számĂtĂłgĂ©pes nyelvĂ©szeti, mind fonetikai Ă©s informatikai szempontbĂłl Ăşj megoldásokat eredmĂ©nyezett. A rendszer, optimális esetben olyan termĂ©szetes hangminĹ‘sĂ©get szolgáltat, hogy a hallgatĂł nem veszi Ă©szre, hogy gĂ©p beszĂ©l